查看原文
其他

好享学丨为什么数据科学家需要了解可视化

海洋 WAVE可视化灵感库 2022-12-31

好享学是高下制图推出的数据可视化经验分享栏目,我们将定期与您分享各界优秀人士的制图经验,一同学习。





小编寄语
对于数据科学家而言,他们在处理大量的数据时,不仅需要掌握复杂的编程语言,而且还需依靠开发、统计以及软件工程等方面的知识。所以一方面为了方便数据研究,另一方面为了向同事们解释研究成果,一个最好的方式就是将数据可视化。

01更容易解释复杂的过程

作为数据科学家而言,若是想开展一项研究,就得获取相应资金方面的支持,那么第一步,科学家就得让投资者理解数据研究的意义,获得投资者的认同。

例如,数据科学家想要启动一个项目,以帮助公司在电子商务网站上对服装商品进行快速分类。那为了证明这个项目对公司而言是有益的,科学家就得概述该过程预期的资源消耗以及可能出现的结果。
以下就是需要用可视化说明的项目。
  • 我们预计该项目需要2个月的时间
  • 对衣服进行分类需要很长时间才能手动完成
  • 我们需要这些数据
  • 我们需要这么多软件工程师、数据科学家和产品经理
  • 我们将需要访问这些平台
  • 我们将把结果推送到这个表中
  • 我们将查询结果直观地表示出来

最后可以利用 PowerPoint、Google Slides 等工具,或是一些涉及面更广的工具,包括 Jira、Lucid Charts、Draw.io 和 ProductPlan 等来创建可视化,从而更好的描述这个过程。

02更容易解释复杂的结果

在解决了上一个问题之后,现在数据科学家就需要解释复杂的结果,最好的方式就是数据可视化。就比如下面这个例子,假设模型已经存在,当务之急就是向利益相关者解释结果。数据科学家首先根据每组的数量查看模型的结果,然后通过绘制热力图,从而显示美国在不同州的表现,最后再根据各自的规模对颜色编码。这样做的好处就是,让复杂的结果更容易被理解。
下面是一个示例,用热图来显示结果。


下面是一些流行的可视化工具,可以用来描述数据。
  • Tableau
  • Google Data Studio
  • Looker
  • PowerBI
  • Matplotlib library
  • Seaborn library


03显示探索性数据分析

不管是对利益相关者,还是对自己的团队而言,可视化数据分析都是非常有用的。在实施数据科学过程中的步骤(如机器学习算法比较)之前,熟悉数据非常重要。或者你也可以通过可视化来比较数据的列和行。
示例:如何使用不同的图表来分析数据。


另一种可以轻松实现数据可视化的方法是使用 Pandas Profiling 。只需一行代码 df.profile_report() 就能轻松绘制常用的分析图表,比如通过直方图,热力图和矩阵进行描述性统计。
下面是一个用变量检查和相关图来可视化探索性数据分析的例子。



04跟踪模型性能趋势

在使用可视化的过程中,数据科学家和相关人员会从中获得乐趣:在完成所有艰苦的工作后,不仅可以看到模型是如何运行的,还可以为精度或误差指标高于或低于某个阈值时设置警报;或者逐渐发现问题,优化模型性能。
可以通过以下几种方式来可视化模型的性能趋势。
  • Tableau-变动和趋势分析
  • Looker-将结果合并至仪表盘中

05总结

数据科学可能很复杂,但有一些方法可以通过数据可视化的方式来提高对它的理解。这就是为什么一个数据科学家不应该只懂得编程和统计,还要懂得可视化技术的一部分原因,希望对您有所启发!

END

扫码阅读原文


文 丨海洋编辑丨人青





还在为如何制作精美图表苦恼头秃么?全新推出高下制图app,不断更新的制图模板,随心更改样式,轻松一键制图。现在积极参与高下制图内测,更有机会获得正式版会员,享受轻松作图哦。更多详情请扫码进群了解。











往期推荐

好享学|涨姿势!神奇的 r 语言竟能折千纸鹤?还有更多惊喜等待解锁

好享学丨不讲武德!全网最豪横Python制图源码分享,多达10种

好享学丨相见恨晚!五招提升你的制图效率,数据专家都在用

好享学丨眼见为实,殊不知其实你的视线早就被安排好了!

好享学丨熬夜制图做了个寂寞!这些错误让设计师疯狂承伤

好享学 | “城市大脑”的智慧,把握城市脉动——基于LBS大数据量化城市尺度动态功能






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存